Podsumowanie analizy danych

Na podstawie wykresu można stwierdzić, że dane z tej samej kategorii tj. local/dict/FoFc są skorelowane dodatnio. Porównując jednak wartości z kategorii local i dict widać, że są skorelowane ujemnie.

Ligand o identyfikatorze SO4 jest najbardziej wykorzystywaną cząsteczką w białka.

Rozkłady liczy atomów i elektronów są proporcojnalne. Jeśli ligand ma dużo atomów to również ma dużo elektronów.

Przy niezgodnościach liczby atomów i elektrónów ligandy o stosunkowo niewielkiej liczbie atomów i elektronów mają większe niezgodności.

1. Wykorzystane biblioteki

Przed wykonaniem skryptów należy zainstalować poniższe biblioteki poleceniem: install.packages(“nazwa_biblioteki”)
dplyr
knitr
DT
ggplot2
plotly

2. Kod zapewniający powtarzalność

Kod przetwarzający dane znajduje się w pliku ScriptCleanData.R.

3. Wczytanie danych z pliku

Skrypt ScriptCleanData.R na samym końcu zapisu dane środowiska do pliku.
Tutaj następuje zaczytanie zapisanych w pliku danych.

load(paste(getwd(), "CleanData.RData", sep = "/"))

4. Kod usuwający wybrane wiersze res_name

Kod znajduję się w pliku ScriptCleanData.R.

5. Kod przetwarzający brakujące dane

Kod znajduję się w pliku ScriptCleanData.R.

6. Podsumowanie zbioru danych

1. Rozmiar zbioru danych

– liczba wierszy: 525666
– liczba kolumn: 358

2. Podstawowe statystyki

7. Ograniczenie res_name TOP 50

columns_names <- colnames(clean_data);

top50 <- head(clean_data %>% group_by(res_name) %>% 
  summarise(res_name_count = n()) %>% 
  arrange(desc(res_name_count)),50);

clean_data <- clean_data %>% filter(res_name %in% top50[["res_name"]]);

8. Korelacja zmiennych

Wykres zmiennych bez kolumn part_

9. Przykłady klas res_name

10. Wykresy rozkładów liczby atomów i elektronów

1. Rozkład atomów

2. Rozkład elektronów

11. Niezgodność liczby atomów i elektronów

1. Niezgodność atomów

2. Niezgodność elektronów

12. Rozkład wartości part_01

13. Interaktywny wykres